6.2 回归分析

#LinearModel #LinearRegression #ConditionalExpectation #MSE #TowerProperty #MultinomialDistribution #ConfidenceInterval #Chi2Distribution #tDistribution #FDistribution #HypothesisTesting

1 回归的概念线性回归的导出

回顾前面的定义, 回归就是要对数值变量寻找线性关系. 如果只是二维情况, 这直观地等价于找一条直线能很好拟合坐标平面上看起来很线性的一列点.
现在从理论的角度, 假设 $(X, Y)$ 有联合概率分布, 且存在二阶矩, 则当 $X = x$ , 可以确定 $Y$ 的条件分布 $P (\cdot | x)$ , 从而有一个条件均值 $E [Y | x]$ 是关于 $x$ 的函数. 如图所示.

Pasted image 20260102151230.png|300

图中的虚线是 $Y$ 条件密度, 它们按着这个分布散布在 $y = E [Y | x]$ 上下.

回归

称上面的 $E [Y | x]$ 为 $Y$ 对 $x$ 的回归函数.
$X$ 是回归因子, $Y$ 是因变量/回归量. 可以把 $E [Y | x]$ 看作 $Y$ 的一个预报, 记为 ${\hat{Y}}_{x} = E [Y | x]$ .
$X, Y$ 的地位一般不对称, 我们会事先默认一个因果关系.

现在我们需要考虑, 把 $x$ 换成一个 $f (x)$ 进行回归, 是否结果会比 $E [Y | x]$ 更好? 我们首先要定义好坏的标准.

最小均方误差预测

如果 $M (X)$ 满足 $E [Y - M (X)]^{2} = min_{f} E [Y - f (X)]^{2},$ 则称 $M (X)$ 为对 $Y$ 的最小均方误差预测.

条件期望就是最小均方误差预测

在上述定义中, $E [Y | X]$ 就是最小均方误差预测. 并且 $E [Y | X]$ 与 $Y$ 的相关系数达到极大值 $\sqrt{\frac{Var (M)}{Var (Y)}}$ , 其中 $Var (M)$ 是 $M (X) = E [Y | X]$ 的方差.

证明

对任意 $f (X)$ , 我们有 $\begin{aligned} E [Y - f (X)]^{2} = & E [Y - E [Y | X] + E [Y | X] - f (X)]^{2} \\ = & E [Y - E [Y | X]]^{2} + E [E [Y | X] - f (X)]^{2} \\ + 2 E [Y - E [Y | X]] [E [Y | X] - f (X)], \end{aligned}$ 其中根据塔式法则, $\begin{aligned} E [Y - E [Y | X]] [E [Y | X] - f (X)] \\ = & E E {[Y - E [Y | X]] [E [Y | X] - f (X)] | X} \\ = & E {[E [Y | X] - f (X)] E {[Y - E [Y | X]] | X}} \\ = & 0. \end{aligned}$
从而 $E [Y - f (X)]^{2} \geq E [Y - E [Y | X]]^{2},$ 从而 $M (X)$ 是 $Y$ 的最小均方误差预测.

容易计算出 $\begin{aligned} Cov (Y, f) & = E [Y - E Y] [f (X) - E f (X)] \\ = E E [(Y - E Y) [f (X) - E f (X)] | X] \\ = E [f (X) - E f (X)] [E [Y | X] - E Y] \\ = Cov (f, M) . \end{aligned}$ 从而 $Cov (Y, M) = Cov (M, M) = Var (M)$ . 根据 Cauchy-Schwarz不等式, $\begin{aligned} ρ (Y, f) & = \frac{Cov (Y, f)}{\sqrt{Var (Y) Var (f)}} = \frac{Cov (M, f)}{\sqrt{Var (Y) Var (f)}} \\ \leq \sqrt{\frac{Var (M) Var (f)}{Var (Y) Var (f)}} = \frac{Var (M)}{\sqrt{Var (Y) Var (M)}} \\ = ρ (Y, M) . \end{aligned}$

从上面的证明看出, ${\hat{Y}}_{x} = E [Y | x]$ 时, 预测误差 $ε = Y - E [Y | x]$ 满足 $E ε = 0, Var (ε) = E ε^{2} = Var (Y) - Var (M) .$
(记号改写成 $ε_{x} = Y_{x} - E [Y | x]$ ).

定义预测精度 $λ = \frac{Var (ε)}{Var (Y)}$ . 有 $λ = 1 - \frac{Var (M)}{Var (Y)} = 1 - ρ^{2} (Y, M) .$
现在把模型改写成 $Y_{x} = \underset{主要部分}{\underset{⏟}{E [Y | x]}} + \underset{预测误差}{\underset{⏟}{ε_{x}}} .$
如果 $E [Y | x]$ 是关于 $x$ 的线性函数, 即 $E [Y | x] = β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p},$ 则模型改写为

线性回归模型

\begin{matrix} (1.1) & Y_{x} = β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p} + ε_{x} . \end{matrix}

1.1 正态情形

在正态情形下, 线性函数的预测是最佳的.
设 $z = (y, x_{1}, \dots, x_{p})^{T} \sim N (v, V)$ 服从 $p + 1$ 维正态分布, 密度函数为 $f (z) = (2 π)^{- \frac{p + 1}{2}} (det V)^{- \frac{1}{2}} \exp {- \frac{1}{2} (z - v)^{T} V^{- 1} (z - v)} .$ 记 $V^{- 1} = [\begin{matrix} v^{11} & v^{T} \\ v & V^{22} \end{matrix}]$ ( $v \in R^{p}$ ), $E y = θ, E x = \vec{μ}$ . 记 $x$ 的边缘密度为 $φ (x)$ , 则 $E [Y | x] = \int_{- \infty}^{\infty} y (2 π)^{- \frac{p + 1}{2}} (det V)^{- \frac{1}{2}} \exp {- \frac{1}{2} (z - v)^{T} V^{- 1} (z - v)} φ (x)^{- 1} d y .$ 将 $Q = (z - v)^{T} V^{- 1} (z - v)$ 关于 $y$ 重新配方, $\begin{aligned} Q & = (y - θ)^{2} v^{11} + 2 (y - θ) v^{T} (x - μ) + (x - μ)^{T} V^{22} (x - μ) \\ = v^{11} [y - θ + (v^{11})^{- 1} v^{T} (x - μ)]^{2} + c, \end{aligned}$
从而 $Y$ 的条件密度是正态的, 所以 $E [Y | x] = θ - (v^{11})^{- 1} V^{T} (x - μ)$ 是关于 $x$ 的线性函数.

1.2 最小均方误差线性预测

最小均方误差线性预测

如果在 $x$ 的线性函数类 ${c_{0} + c^{T} x}$ 中, $M (x)$ 满足 $E [Y - M (x)]^{2} = min_{c_{0}, c} E [Y - c_{0} + c^{T} x]^{2},$ 则称 $M (x)$ 是对 $Y$ 的最小均方误差线性预测.

最小均方误差线性预测的求法

记 $Cov (\binom{Y}{X}) = (\begin{matrix} σ_{Y}^{2} & σ_{Y X} \\ σ_{X Y^{T}} & Σ_{X X} \end{matrix}),$ 其中 $Σ_{X X}$ 可逆, $σ_{Y}^{2} = Var (Y)$ , $σ_{Y X} = σ_{X Y^{T}} = (Cov (Y, X_{1}), \dots, Cov (Y, X_{p}))$ , $Σ_{X X} = Cov (X, X)$ . 则 $\begin{matrix} (1.2) & M (x) = E Y - σ_{Y X} Σ_{X X}^{- 1} E x + σ_{Y X} Σ_{X X}^{- 1} x . \end{matrix}$

证明

取 $c_{0} + c^{T} x$ . 我们有 $\begin{aligned} E [Y - c_{0} - c^{T} x]^{2} = & E [(Y - E Y) - c^{'} (x - E x) + (E y - c_{0} - c^{T} E x)]^{2} \\ = & σ_{Y}^{2} + c^{T} Σ_{X X} c - 2 σ_{Y X} c + (E Y - c_{0} - c^{T} E x)^{2} \\ = & σ_{Y}^{2} + {(Σ_{X X}^{\frac{1}{2}} c - Σ_{X X}^{- \frac{1}{2}} σ_{X Y^{T}})}^{T} (Σ_{X X}^{\frac{1}{2}} c - Σ_{X X}^{- \frac{1}{2}} σ_{X Y^{T}}) \\ - σ_{Y X} Σ_{X X}^{- 1} σ_{X Y^{T}} + (E Y - c_{0} - c^{T} E x)^{2} . \end{aligned}$ 从而极小值点 $c_{0}, c$ 是方程 ${\begin{aligned} Σ_{X X}^{\frac{1}{2}} c - Σ_{X X}^{- \frac{1}{2}} σ_{X Y^{T}} = 0 \\ E Y - c_{0} - c^{T} E x = 0 \end{aligned}$ 的解. 解得 $c = Σ_{X X}^{- 1} σ_{X Y^{T}}, c_{0} = E Y - σ_{Y X} Σ_{X X}^{- 1} E x .$

容易看出 $M (x)$ 对 $Y$ 的预测是无偏的, 预测精度为 $λ_{L} = 1 - σ_{Y X} Σ_{X X}^{- 1} \frac{σ_{X Y^{T}}}{σ_{Y}^{2}} = 1 - ρ_{Y, X}^{2} .$ 一般 $λ_{L}$ 大于这里的 $λ$ .

记 $β_{0} = E Y - σ_{Y X} Σ_{X X}^{- 1} E x$ , $β = Σ_{X X}^{- 1} σ_{X Y^{T}}$ , 得总体线性回归模型为 $\begin{matrix} (1.3) & Y = β_{0} + β^{T} x + ε . \end{matrix}$
称 $y = β_{0} + β^{T} x$ 为回归方程, $β$ 称为回归系数.

2 回归系数的估计经验回归

在实际问题中, 我们无法得到总体的二阶矩, 需要用样本来估计. 设容量为 $n$ 的简单随机样本 $y = (\begin{matrix} y_{1} \\ ⋮ \\ y_{n} \end{matrix}), X = (\begin{matrix} x_{11} & \dots & x_{1 p} \\ ⋮ & ⋱ & ⋮ \\ x_{n 1} & \dots & x_{n p} \end{matrix}),$ 记 $1 = (1, \dots, 1)^{T}$ , 得样本模型 $y = (1 X) (\begin{matrix} β_{0} \\ β \end{matrix}) + ε .$

假设这个式子就是回归分析模型. 此时设计矩阵的秩 $rank ((1 X)) = p + 1$ .^[1] 简记 $Z = (1 X)$ , $θ = (β_{0} β^{T})^{T}$ . 从而上式改写为 $y = Z θ + ε .$

考虑最小二乘问题 $| | y - Z \hat{θ} | |^{2} = min_{θ \in R^{p + 1}} | | y - Z θ | |^{2} .$

推导

我们有 $\begin{aligned} | | y - Z θ | |^{2} & = | | y - Z \hat{θ} + Z (\hat{θ} - θ) | |^{2} \\ = | | y - Z \hat{θ} | |^{2} + | | Z (\hat{θ} - θ) | |^{2} + 2 (\hat{θ} - θ)^{T} Z^{T} (y - Z \hat{θ}) . \end{aligned}$
于是 $| | y - Z θ | |^{2} \geq | | y - Z \hat{θ} | |^{2}$ , $\forall θ \in R^{p + 1}$ 的充要条件是 $(\hat{θ} - θ)^{T} Z^{T} (y - Z \hat{θ}) = 0, \forall θ \in R^{p + 1} .$ 这又等价于 $Z^{T} (y - Z \hat{θ}) = 0$ , 即

Z^{T} Z \hat{θ} = Z^{T} y .

由此得到解 $\begin{matrix} (2.1) & \hat{θ} = (Z^{T} Z)^{- 1} Z^{T} y . \end{matrix}$
它就是 $θ$ 的最小二乘估计. ^[2] 记 $\hat{θ} = ({\hat{β}}_{0} {\hat{β}}^{T})^{T}$ , 则它称为 $β_{0}, β$ 的经验回归系数. 相应的 $\begin{matrix} (2.2) & \hat{y} = {\hat{β}}_{0} + {\hat{β}}^{T} x \end{matrix}$ 就是经验回归方程, ${\hat{β}}_{0} + {\hat{β}}^{T} x$ 是经验回归函数.

在 $p = 1$ 时,

推导

$\begin{aligned} (Z^{T} Z)^{- 1} & = {[(\begin{array}{c} 1^{T} \\ x^{T} \end{array}) (1 x)]}^{- 1} = {(\begin{array}{c} n & \sum_{i = 1}^{n} x_{i} \\ \sum_{i = 1}^{n} x_{i} & \sum_{i = 1}^{n} x_{i}^{2} \end{array})}^{- 1} \\ = {[n \sum_{i = 1}^{n} x_{i}^{2} - {(\sum_{i = 1}^{n} x_{i})}^{2}]}^{- 1} (\begin{array}{c} \sum_{i = 1}^{n} x_{i}^{2} & - \sum_{i = 1}^{n} x_{i} \\ - \sum_{i = 1}^{n} x_{i} & n \end{array}), \\ Z^{T} y & = {(\sum_{i = 1}^{n} y_{i}, \sum_{i = 1}^{n} x_{i} y_{i})}^{T} . \end{aligned}$

有 $\begin{matrix} (2.3) & {\begin{aligned} {\hat{β}}_{0} = \frac{\sum_{i = 1}^{n} x_{i}^{2} \sum_{i = 1}^{n} y_{i} - \sum_{i = 1}^{n} x_{i} \sum_{i = 1}^{n} x_{i} y_{i}}{n \sum_{i = 1}^{n} x_{i}^{2} - {(\sum_{i = 1}^{n} x_{i})}^{2}}, \\ {\hat{β}}_{1} = \frac{n \sum_{i = 1}^{n} x_{i} y_{i} + \sum_{i = 1}^{n} x_{i} \sum_{i = 1}^{n} y_{i}}{n \sum_{i = 1}^{n} x_{i}^{2} - {(\sum_{i = 1}^{n} x_{i})}^{2}} . \end{aligned} \end{matrix}$
一般情形下, $\begin{matrix} (2.4) & (\begin{matrix} {\hat{β}}_{0} \\ \hat{β} \end{matrix}) = {(\begin{matrix} n & 1^{T} X \\ X^{T} 1 & X^{T} X \end{matrix})}^{- 1} (\begin{matrix} 1^{T} y \\ X^{T} y \end{matrix}) . \end{matrix}$

3 预测区域

我们需要衡量预测的可靠性, 也即如何找到一个区域, 它包含待预测的 $y_{*}$ 的概率不低于 $1 - α$ ? (也即前面的置信区间). 我们假设总体分布 $y \sim N_{n} (X β, σ^{2} I)$ .

引理

设 $Y \sim N_{n} (μ, I)$ , $A$ 是 $n$ 阶对称阵, $B$ 是 $n \times m$ 阶阵, 则有

$Y^{T} A Y \sim χ_{r}^{2} (δ)$ 等价于 $A$ 是对称幂等阵^[3], 其中 $r = rank (A)$ , $δ^{2} = μ^{T} A μ$ .
当 $Y^{T} A Y \sim χ_{r}^{2} (δ)$ 时 $Y^{T} A Y ⊥ ⊥ B^{T} Y ⟺ B^{T} A = 0.$

充分性的证明

因为 $A$ 幂等, 所以 $I - A$ 也是幂等的. 因为 $A + (I - A) = I$ , 且 $rank A + rank (I - A) = n$ , 则由 Cochran定理, $Y^{T} A Y \sim χ_{r}^{2} (δ)$ .
由于 $Y^{T} A Y \sim χ_{r}^{2} (δ)$ , 知 $A$ 为对称幂等阵, 存在正交阵 $U$ : $U^{T} A U = (\begin{matrix} I_{r} & 0 \\ 0 & 0 \end{matrix})$ . 记 $U = ({U_{1}}_{n \times r} U_{2})$ . 令 $Y = U X$ , 则有 $Y^{T} A Y = X^{T} U A U X = \sum_{i = 1}^{r} x_{i}^{2}, B^{T} Y = B^{T} U X .$ 注意到 $B^{T} A = B^{T} U (\begin{matrix} I_{r} & 0 \\ 0 & 0 \end{matrix}) U^{T} = 0,$ 有 $B^{T} U_{1} = 0$ . 故 $B^{T} Y = (B^{T} U_{1} B^{T} U_{2}) X = (0 B^{T} U_{2}) X = B^{T} U_{2} X^{(2)},$ 其中 $X^{(2)} = (X_{r + 1}, \dots, X_{n})^{T}$ .

现在对回归模型 $Y = X β + ε$ , 记最小二乘估计为 $\hat{β} = (X^{T} X)^{- 1} X^{T} y$ . 称残差平方和为 $S_{ε}^{2} = | | y - x \hat{β} | |^{2}$ . 容易看出 $S_{ε}^{2} = y^{T} P_{X^{⊥}} y,$ 这里 $P_{X^{⊥}} = I - X (X^{T} X)^{- 1} X^{T}$ 是正投影阵. 而 $\hat{y} = X \hat{β} = P_{X} y$ , 这里 $P_{X} = X (X^{T} X)^{- 1} X^{T}$ 是 $span {Col (X)}$ 的正投影阵. 于是

⚠ Switch to EXCALIDRAW VIEW in the MORE OPTIONS menu of this document. ⚠ You can decompress Drawing data with the command palette: 'Decompress current Excalidraw file'. For more info check in plugin settings under 'Saving'

Excalidraw Data

Text Elements

y
O
x1
x2
x*beta
C(X)
HY
(I-H)Y

定理

在上述记号下 $\begin{aligned} \hat{β} & \sim N_{p} (β, σ^{2} (X^{T} X)^{- 1}), \\ \hat{y} & \sim N_{n} (X β, σ^{2} P_{X}), \\ σ^{- 2} S_{ε}^{2} & \sim χ_{n - p}^{2}, \end{aligned}$ 且 $\hat{β}, \hat{y}, S_{ε}^{2}$ 独立. 其中 $p$ 是 $X$ 的列数.

证明

根据引理, 注意到 $(X β)^{T} P_{X^{⊥}} X β = 0$ , 且 $\begin{aligned} rank P_{X} & = tr P_{X} = n - tr (X (X^{T} X)^{- 1} X^{T}) \\ = n - tr ((X^{T} X)^{- 1} X^{T} X) = n - p . \end{aligned}$ 就立即得到结论.

如果在历史样本基础上已经得到回归方程 $\hat{y} = X^{T} \hat{β}$ , 且有新的试验点 $x_{*} = (x_{1}, \dots, x_{p})^{T}$ . 现在需要求 $x_{*}$ 上的观察值 $y_{*}$ .
因为 $y_{*} \sim N_{1} (x_{*}^{T} β, σ^{2})$ . 令 ${\hat{y}}_{*} = x_{*}^{T} \hat{β} = x_{*}^{T} (X^{T} X)^{- 1} X^{T} y$ , 得 $y_{*} - {\hat{y}}_{*} \sim N_{1} (0, σ_{*}^{2}) .$ 因为 $y_{*} ⊥ ⊥ y$ , 因而也和 ${\hat{y}}_{*}$ 独立. 故 $σ_{*}^{2} = σ^{2} + σ^{2} x_{*}^{T} (X^{T} X)^{- 1} x_{*} = σ^{2} ρ^{2},$ 这里 $ρ^{2} = 1 + x_{*}^{T} (X^{T} X)^{- 1} x_{*}$ . 根据定理, $σ^{- 2} S_{ε}^{2} \sim χ_{n - p}^{2}$ , 且 $S_{ε}^{2} ⊥ ⊥ y_{*} - {\hat{y}}_{*}$ . 故 $T = \frac{y_{*} - {\hat{y}}_{*}}{S_{ε} ρ} \sqrt{n - p} \sim t_{n - p} .$
记 $t_{n - p} (α)$ 是 $t_{n - p}$ 上的 $α$ 分位点 ^[4]. 对于置信系数 $1 - α$ , $P (| T | \leq t_{n - p} (\frac{α}{2})) = 1 - α,$ 从而得到区间 ${\hat{y}}_{*} \pm t_{n - p} (\frac{α}{2}) S_{ε} ρ (n - p)^{- \frac{1}{2}}$ .

我们可以把 $y_{1}, y_{2}$ 看作 $x_{*} = (x_{1}^{*}, \dots, x_{p}^{*})$ 的函数, 则 $y = y_{1}, y = y_{2}$ 是 $R^{p + 1}$ 中的两个曲面, 它们夹的区域称为预测带.

如果有 $m$ 个试验点 $x_{*} = (x_{α l})$ 上的观察值 $y_{*} = (y_{1^{*}}, \dots, y_{m^{*}})^{T}$ 的预测区域, 则可以仿照上面给出. 此时 ${\hat{y}}_{*} = X_{*} \hat{β} = X_{*} (X^{T} X)^{- 1} X^{T} y$ . 由 $y_{*} ⊥ ⊥ y \Rightarrow y_{*} ⊥ ⊥ {\hat{y}}_{*}$ , 从而 $\begin{aligned} E (y_{*} - {\hat{y}}_{*}) = 0, \\ Cov (y_{*} - {\hat{y}}_{*}) = σ^{2} I_{m} + σ^{2} X_{*} (X^{T} X)^{- 1} X_{*}^{T} . \end{aligned}$ 记 $Σ = I_{m} + X_{*} (X^{T} X)^{- 1} X_{*}^{T}$ , 它当然是正定矩阵.
因为 $σ^{- 1} Σ^{- \frac{1}{2}} (y_{*} - {\hat{y}}_{*}) \sim N_{m} (0, I_{m})$ , 有 $σ^{- 2} (y_{*} - {\hat{y}}_{*})^{T} Σ^{- 1} (y_{*} - {\hat{y}}_{*}) \sim χ_{m}^{2} .$ 因为 $y_{*}, {\hat{y}}_{*} ⊥ ⊥ S_{ε}^{2}$ , 我们有 $F = \frac{(y_{*} - {\hat{y}}_{*})^{T} Σ^{- 1} (y_{*} - {\hat{y}}_{*})}{S_{ε}^{2}} \cdot \frac{n - p}{m} \sim F_{m, n - p .}$ 此时 $P ((y_{*} - {\hat{y}}_{*})^{T} Σ^{- 1} (y_{*} - {\hat{y}}_{*}) \leq \frac{m}{n - p} S_{ε}^{2} F_{m, n - p} (α)) = 1 - α .$ 由于 $c (y) = {y | (y - {\hat{y}}_{*})^{T} Σ^{- 1} (y_{*} - {\hat{y}}_{*}) \leq \frac{m}{n - p} S_{ε}^{2} F_{m, n - p} (α)}$ 是 $R^{m}$ 中的椭球, 得 $c (y)$ 是 $y_{*}$ 的 $1 - α$ 置信系数的预测区域.

3.1 预测区域的精度

预测区域"包含" $y_{*}$ "这件事并没有什么意义, 还需要让预测区域越小越好. 当 $m = 1$ , 取 $Δ = y_{2} - y_{1}$ (区间长度), 则 $Δ^{2} = (y_{2} - y_{1})^{2} = {(t_{n - p} (\frac{α}{2}))}^{2} S_{ε}^{2} (1 + x_{*}^{T} (X^{T} X)^{- 1} x_{*}) (n - p)^{- 1} .$ 不难算出均值 $E Δ^{2} = {(t_{n - p} (\frac{α}{2}))}^{2} σ^{2} (1 + x_{*}^{T} (X^{T} X)^{- 1} x_{*}) > {(t_{n - p} (\frac{α}{2}))}^{2} σ^{2} .$
称 $X^{T} X$ 为信息矩阵, 它如果特征值很小, 则预测精度可能很低.
而对于多个点的情形, 注意到 $E [\frac{m}{n - p} S_{ε}^{2} F_{m, n - p} (α)] = m σ^{2} F_{m, n - p} (α),$ 且 $Σ^{- 1}$ 特征值小于 $1$ . 可以计算出它的精度低于 $m = 1$ 的情形.

4 显著性检验

我们现在可以从样本来进行线性回归. 但是所得回归函数是否是整个原模型的好的拟合? 我们可以进行假设检验.

4.1 检验系数是否为 0 向量

为了检验模型 $y = 1 β_{0} + X β + ε$ 的合理性, 可以提出假设 $H_{0} : β = 0.$ 这里如果接受 $H_{0}$ 则显然线性模型很不可信. 虽然拒绝 $H_{0}$ 也不一定说明线性性, 但至少我们倾向于接受模型.

为了检验 $H_{0}$ , 记 $S_{ε}^{2} = min_{β_{0}, β} | | y - 1 β_{0} - X β | |^{2}, S_{0}^{2} = min_{β_{0}} | | y - 1 β_{0} | |^{2} .$ 已知 $S_{ε}^{2} = | | P_{(1 X)^{⊥}} y | |^{2} = y^{T} P_{(1 X)^{⊥}} y$ , 容易算出 $S_{0}^{2} = | | P_{1^{⊥}} y | |^{2} = y^{T} P_{1^{⊥}} y .$
$H_{0}$ 成立时, $\begin{aligned} E_{0} (S_{0}^{2}) & = E_{0} (tr (P_{1^{⊥}} y y^{T})) = tr (P_{1^{⊥}} E_{0} (y y^{T})) \\ = tr (P_{1^{⊥}} [Cov y + E_{0} y (E_{0} y)^{T}]) = (n - 1) σ^{2} . \end{aligned}$
$H_{0}$ 不成立时, 如果假设原模型为真, 则 $E_{1} (S_{0}^{2}) = (n - 1) σ^{2} + | | P_{1^{⊥}} X β | |^{2} > E_{0} (S_{0}^{2}) .$
因此考虑 $S_{0}^{2}$ 较大时拒绝 $H_{0}$ . 但是 $S_{0}^{2} \sim σ^{2} χ_{n - 1}^{2}$ , 含有未知参数, 不能作为检验量. 为此引入 $S_{H}^{2} = S_{0}^{2} - S_{ε}^{2}$ , 则 $S_{H}^{2} = y^{T} (P_{(1 X)} - P_{1}) y \geq 0.$ 因为 $S_{H}^{2} + S_{ε}^{2} = S_{0}^{2}$ , 由 Cochran定理有 $σ^{- 2} S_{H}^{2} \sim χ_{p}^{2} (δ), σ^{- 2} S_{ε}^{2} \sim χ_{n - p - 1}^{2},$ 且两者独立. 故 $F = \frac{S_{H}^{2}}{S_{ε}^{2}} \cdot \frac{n - p - 1}{p} \sim F_{p, n - p - 1, δ} .$
当 $H_{0}$ 成立时 $δ^{2} = σ^{- 2} β_{0} 1^{T} (P_{(1 X)} - P_{1}) 1 β_{0} = 0$ , 从而 $F \sim F_{p, n - p - 1}$ . 从而得到拒绝域 ${F \geq F_{p, n - p - 1} (α)}$ .

4.2 检验分量是否为 0

我们还需要检验 $H_{0 i} : β_{i} = 0$ . 这用来检验各个因子是否显著.
为了讨论方便, 假设 $β_{0} = 0$ , 此时回归函数变为 $y = X \hat{β}$ , 其中 $\hat{β} = (X^{T} X)^{- 1} X^{T} y, {\hat{β}}_{i} = e_{i}^{T} (X^{T} X)^{- 1} X^{T} y,$ 而 $e_{i} = (0, \dots, 0, \underset{i}{\underset{⏟}{1}}, 0, \dots, 0)^{T}$ . 记 $c = (X^{T} X)^{- 1} = (c_{i j})$ , 则 ${\hat{β}}_{i} \sim N (β_{i}, σ^{2} c_{i i})$ . 由于残差平方和 $S_{ε}^{2} = y^{T} P_{X^{⊥}} y ⊥ ⊥ {\hat{β}}_{i}$ , 令 $F = \frac{{\hat{β}}_{i}^{2}}{c_{i i} S_{ε}^{2}} (n - p) .$ 当 $H_{0 i}$ 成立, $F \sim F_{1, n - p}$ . 因此拒绝域为 ${F \geq F_{1, n - p} (α)}$ .

如果接受 $H_{0 i}$ , 剔除 $x_{i}$ , 记剔除第 $i$ 列的 $X$ 为 $X_{*}$ , 模型变为 $y = X_{*} β_{*} + ε$ , 然后重新估计 $\hat{y} = X_{*} {\hat{β}}_{*}$ . 记 ${\hat{β}}_{*} = ({\hat{β}}_{* 1}, \dots, {\hat{β}}_{* i - 1}, {\hat{β}}_{* i + 1}, \dots, {\hat{β}}_{* p})^{T}$ (去掉了 $i$ ), 则

{\hat{β}}_{* j} = {\hat{β}}_{j} - \frac{c_{j i}}{c_{i i}} {\hat{β}}_{i} (j \neq i) .

证明

剖分 $I_{p} = (\underset{i - 1}{D_{1}} e_{i} \underset{p - i}{D_{2}}),$ 记 $D = (D_{1} D_{2})$ . 注意到 $X_{*} = X D, D D^{T} + e_{i} e_{i}^{T} = I_{p},$ 则 $\begin{aligned} {\hat{β}}_{*} & = (X_{*}^{T} X_{*})^{- 1} X_{*}^{T} y \\ = (D^{T} X^{T} X D)^{- 1} D^{T} X^{T} X \hat{β} \\ = (D^{T} X^{T} X D)^{- 1} D^{T} X^{T} X (D D^{T} + e_{i} e_{i}^{T}) \hat{β} \\ = D^{T} \hat{β} + (D^{T} X^{T} X D)^{- 1} D^{T} X^{T} X e_{i} {\hat{β}}_{i} . \end{aligned}$
记 $c_{i} = (X^{T} X)^{- 1} e_{i}$ . 由于 $\begin{aligned} 0 & = D^{T} e_{i} = D^{T} X^{T} X c_{i} \\ = D^{T} X^{T} X (D D^{T} + e_{i} e_{i}^{T}) c_{i} \\ = D^{T} X^{T} X D D^{T} c_{i} + D^{T} X^{T} X e_{i} c_{i i}, \end{aligned}$ 可得 $D^{T} X^{T} X e_{i} = - D^{T} X^{T} X D D^{T} \frac{c_{i}}{c_{i i}}$ , 于是有 ${\hat{β}}_{*} = D^{T} \hat{β} - D^{T} c_{i} \frac{{\hat{β}}_{i}}{c_{i i}} .$

5 回归因子挑选

上一小节介绍了用显著性检验来判断是否要加入因子. 在此基础上我们有挑选因子的逐步回归算法.
对线性回归模型 $y = X β + ε$ , 如果人为丢掉一部分回归因子 (不妨设后面 $p - r$ 个), 预测效果会怎么变?

推导

进行剖分 $X = (X_{1}^{r} X_{2}^{r}), β = {(\begin{matrix} β_{(1)} \\ β_{(2)} \end{matrix})}^{r}, x = {(\begin{matrix} x_{(1)} \\ x_{(2)} \end{matrix})}^{r} .$ 原模型的预测为 $\hat{y} = x^{T} \hat{β}, \hat{β} = (X^{T} X)^{- 1} X^{T} y .$
另一方面改写原模型为 $y = X_{1} β_{(1)} + X_{2} β_{(2)} + ε \equiv X_{1} β_{(1)} + ε_{*},$ 这里实际上 $E ε_{*} = X_{2} β_{2}$ . 此时预测为 ${\hat{y}}_{*} = x_{(1)}^{T} {\hat{β}}_{(1)}, {\hat{β}}_{1} = (X_{1}^{T} X_{1})^{- 1} X_{1}^{T} y .$ 设两种情形误差为 $\hat{ε} = Y - \hat{y}$ , ${\hat{ε}}_{*} = Y - {\hat{y}}_{*}$ . 计算均方误差 $\begin{aligned} E ({\hat{ε}}^{2}) & = Var (\hat{ε}) = σ^{2} (1 + x^{T} (X^{T} X)^{- 1} x), \\ E ({\hat{ε}}_{*}^{2}) & = Var ({\hat{ε}}_{*}) + (E {\hat{ε}}_{*})^{2} = σ^{2} (1 + x_{(1)}^{T} (X_{1}^{T} X_{1})^{- 1} x_{(1)}) + (E ({\hat{ε}}_{*}))^{2} . \end{aligned}$
注意到 $\begin{aligned} E ({\hat{ε}}_{*}) & = x^{T} β - x_{(1)}^{T} (X_{1}^{T} X_{1})^{- 1} X_{1}^{T} X β \\ = x_{(1)}^{T} β_{(1)} + x_{(2)}^{T} β_{(2)} - x_{(1)}^{T} (X_{1}^{T} X_{1})^{- 1} X_{1}^{T} (X_{1} β_{(1)} + X_{2} β_{(2)}) \\ = x_{(2)}^{T} β_{(2)} - x_{(1)}^{T} (X_{1}^{T} X_{1})^{- 1} X_{1}^{T} X_{2} β_{(2)}, \end{aligned}$ 得 $(E {\hat{ε}}_{*})^{2} = (x_{(2)} - X_{2}^{T} X_{1} (X_{1}^{T} X_{1})^{- 1} x_{(1)})^{T} β_{(2)} β_{(2)}^{T} (x_{(2)} - X_{2}^{T} X_{1} (X_{1}^{T} X_{1})^{- 1} x_{(1)}) .$
记 $E {\hat{ε}}_{*} = b$ 为预测偏差. 由 $X^{T} X = (\begin{matrix} X_{1}^{T} X_{1} & X_{1}^{T} X_{2} \\ X_{2}^{T} X_{1} & X_{2}^{T} X_{2} \end{matrix}), (X^{T} X)^{- 1} = c = (\begin{matrix} c_{11} & c_{12} \\ c_{21} & c_{22} \end{matrix}) .$ 则 $\begin{aligned} Var (\hat{ε}) - Var ({\hat{ε}}_{*}) \\ = & σ^{2} (x^{T} c x - x_{(1)}^{T} (X_{1}^{T} X_{1})^{- 1} x_{(1)}) \\ = & σ^{2} x^{T} (\begin{array}{c} c - (\begin{matrix} (X_{1}^{T} X_{1})^{- 1} & 0 \\ 0 & 0 \end{matrix}) \end{array}) x \\ = & σ^{2} x^{T} (\begin{array}{c} (X_{1}^{T} X_{1})^{- 1} X_{1}^{T} X_{2} c_{22} X_{2}^{T} X_{1} (X_{1}^{T} X_{1})^{- 1} & - (X_{1}^{T} X_{1})^{- 1} X_{1}^{T} X_{2} c_{22} \\ - c_{22} X_{2}^{T} X_{1} (X_{1}^{T} X_{1})^{- 1} & c_{22} \end{array}) x \\ = & σ^{2} x^{T} (\begin{array}{c} - (X_{1}^{T} X_{1})^{- 1} X_{1}^{T} X_{2} \\ I \end{array}) c_{22} (- X_{2}^{T} X_{1} (X_{1}^{T} X_{1})^{- 1} I) x \\ = & σ^{2} (x_{(2)} - X_{2}^{T} X_{1} (X_{1}^{T} X_{1})^{- 1} x_{(1)})^{T} c_{22} (x_{(2)} - X_{2}^{T} X_{1} (X_{1}^{T} X_{1})^{- 1} x_{(1)}), \end{aligned}$ 故有 $\begin{aligned} E ({\hat{ε}}^{2}) - E ({\hat{ε}}_{*}^{2}) \\ (5.1) & = & (x_{(2)} - (X_{1}^{T} X_{1})^{- 1} X_{1}^{T} X_{2} x_{(1)})^{T} (σ^{2} c_{22} - β_{(2)} β_{(2)}^{T}) (x_{(2)} - (X_{1}^{T} X_{1})^{- 1} X_{1}^{T} X_{2} x_{(1)}) . \end{aligned}$

由于 $σ^{2} c_{22}$ 正定, $β_{(2)} β_{(2)}^{T}$ 唯一非零特征值是 $| | β_{(2)} | |^{2} = β_{(2)}^{T} β_{(2)}$ , 故 $| | β_{(2)} | |$ 较小时 $σ^{2} c_{22} - β_{(2)} β_{(2})^{T}$ 可以正定. 此时 $\hat{y}$ 不如 ${\hat{y}}_{*}$ , 因为 $E ({\hat{ε}}^{2}) > E ({\hat{ε}}_{*}^{2})$ .

因为这是回归分析模型, $X$ 的值可以连续变化, 所以基本上就是满秩. ↩︎
当然用矩阵求导也可以, 但这里的方法更加本质一些. ↩︎
幂等也即 $A^{2} = A$ . ↩︎
即 $P (T \geq t_{n - p} (α)) = α$ . ↩︎